Average word length | # of sentences | Source |
---|---|---|
4.00 | 11 | http://he.wikipedia.org/wiki/Ook! |
5.94 | 20 | http://he.wikipedia.org/wiki/פתיחה_אנגלית |
6.86 | 14 | http://he.wikipedia.org/wiki/יוסף_אמרי |
7.07 | 13 | http://he.wikipedia.org/wiki/ביבליוגרפיה_של_יגאל_מוסינזון |
7.51 | 15 | http://he.wikipedia.org/wiki/2006_במוזיקה |
7.76 | 11 | http://he.wikipedia.org/wiki/אוסצילטור_הרמוני_קוונטי |
7.85 | 10 | http://he.wikipedia.org/wiki/עמנואל_טוב |
7.96 | 10 | http://he.wikipedia.org/wiki/איתן_קולברג |
8.04 | 12 | http://he.wikipedia.org/wiki/מצבת_מישע |
8.12 | 15 | http://he.wikipedia.org/wiki/יואל_רק |
8.18 | 10 | http://he.wikipedia.org/wiki/מחשבות_פולשניות |
8.22 | 11 | http://he.wikipedia.org/wiki/אווארים_(עם_קדום) |
8.26 | 10 | http://he.wikipedia.org/wiki/נשקי_מוט |
8.31 | 10 | http://he.wikipedia.org/wiki/רפאל_משולם |
8.36 | 20 | http://he.wikipedia.org/wiki/אמה_גולדמן |
8.36 | 16 | http://he.wikipedia.org/wiki/אביתר_נבו |
8.40 | 12 | http://he.wikipedia.org/wiki/אדריכלות_בירושלים |
8.41 | 10 | http://he.wikipedia.org/wiki/הקוסם_מארץ_עוץ_(אנימה) |
8.42 | 11 | http://he.wikipedia.org/wiki/פתיחה_ספרדית |
8.46 | 10 | http://he.wikipedia.org/wiki/ראינוע |
8.64 | 15 | http://he.wikipedia.org/wiki/סקר_הר_מנשה |
8.66 | 12 | http://he.wikipedia.org/wiki/זמן |
8.70 | 11 | http://he.wikipedia.org/wiki/האתיקה_של_אריסטו |
8.71 | 12 | http://he.wikipedia.org/wiki/חובת_הראיה_ברשלנות |
8.74 | 10 | http://he.wikipedia.org/wiki/תסמונת_העייפות_הכרונית |
8.75 | 12 | http://he.wikipedia.org/wiki/פדופיליה |
8.80 | 13 | http://he.wikipedia.org/wiki/ערי_הזהב_הנסתרות |
8.80 | 11 | http://he.wikipedia.org/wiki/מצדה |
8.82 | 12 | http://he.wikipedia.org/wiki/אחריות_משתף_ומשדל |
8.83 | 11 | http://he.wikipedia.org/wiki/ננס_לבן |
Average word length | # of sentences | Source |
---|---|---|
13.81 | 10 | http://he.wikipedia.org/wiki/מוזיאון_המטרופוליטן_לאמנות |
12.20 | 10 | http://he.wikipedia.org/wiki/בודפשט |
12.09 | 10 | http://he.wikipedia.org/wiki/המהפכה_הצרפתית |
12.01 | 15 | http://he.wikipedia.org/wiki/דאגרוטיפ |
11.87 | 11 | http://he.wikipedia.org/wiki/מקדוניה |
11.80 | 10 | http://he.wikipedia.org/wiki/המלחמות_הנפוליאוניות |
11.78 | 11 | http://he.wikipedia.org/wiki/מחלות_עור |
11.78 | 11 | http://he.wikipedia.org/wiki/הכי_גאים_שיש |
11.75 | 13 | http://he.wikipedia.org/wiki/מלחמת_יום_הכיפורים |
11.65 | 11 | http://he.wikipedia.org/wiki/הומוסקסואליות |
11.65 | 10 | http://he.wikipedia.org/wiki/דמוקרטיה_הסדרית |
11.64 | 10 | http://he.wikipedia.org/wiki/אבולוציה_חברתית_ותרבותית |
11.58 | 17 | http://he.wikipedia.org/wiki/אבולוציה |
11.52 | 10 | http://he.wikipedia.org/wiki/ארכאולוגיה |
11.43 | 10 | http://he.wikipedia.org/wiki/היסטוריה_של_בוסניה_והרצגובינה |
11.43 | 13 | http://he.wikipedia.org/wiki/עמק_קטמנדו |
11.40 | 14 | http://he.wikipedia.org/wiki/אוריינות_מדיה |
11.35 | 12 | http://he.wikipedia.org/wiki/היסטוריה_של_פורטוגל |
11.34 | 12 | http://he.wikipedia.org/wiki/יהדות_גאורגיה |
11.34 | 10 | http://he.wikipedia.org/wiki/היסטוריה_של_הרפובליקה_הטורקית |
11.30 | 12 | http://he.wikipedia.org/wiki/משרד_ההסברה |
11.28 | 11 | http://he.wikipedia.org/wiki/ארסנל |
11.28 | 10 | http://he.wikipedia.org/wiki/היסטוריה_של_הולנד |
11.26 | 11 | http://he.wikipedia.org/wiki/בריטניה_במשחקים_האולימפיים |
11.24 | 10 | http://he.wikipedia.org/wiki/היסטוריה_של_החינוך |
11.22 | 10 | http://he.wikipedia.org/wiki/תרגומי_התנ"ך |
11.22 | 18 | http://he.wikipedia.org/wiki/ערביי_ישראל |
11.22 | 11 | http://he.wikipedia.org/wiki/אונס |
11.21 | 12 | http://he.wikipedia.org/wiki/מישל_פוקו |
11.21 | 12 | http://he.wikipedia.org/wiki/התרשלות |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words